6. 差を解釈するための指標
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
5. 2群の差の分析1に続いて、「知覚時間」の聴音条件と安静条件のデータを利用し、2群の差を考察する方法を解説 平均値の差だけではなく、いくつかの指標を併用することで、詳細に考察できるようになる
6.1. 効果量
RQ.5 効果量の点推定・区間推定
e.g. 聴音条件と安静条件の平均値の差は$ 1.71秒だった。群内の散らばりとの比で評価するなら、この差は大きいのだろうか小さいのだろうか。またその比を効果量と呼ぶならば、効果量はどの区間にあるのだろうか
RQ.6 効果料が基準点$ cより大きい確率
e.g. 効果量が$ 0.2より大きい確率はどの程度だろうか
6.1.1. 標準偏差が共通した場合
$ \delta = \frac{\mu_1 - \mu_2}{\sigma} \qquad (6.1)
で定義される
平均値差は標準偏差の何倍かという指標
分子が正の値となるように実験群と対照群を選ぶと解釈しやすい
また、効果量という用語は、より一般的に、効果の量を表現する文脈で使用する場合もある
本書では効果量という用語を、標準化された平均値差の意味で利用する
差は群内の標準偏差との比で見ることにより、大きさを評価しやすくなる
平均値の差はそのままでは解釈しにくい場合がある
e.g.$ 1.71秒という差は、待ち合わせ時間としてはないに等しく、ひらがな1文字を認識する2人の時間差だと非常に大きい
効果量を10倍すると、それは2つの群の平均値が偏差値換算でどれだけ離れているかの目安となる 偏差値は標準得点を一次変換(10倍して50をた)した指標であり、本来、必ずしも学力を表現する指標ではない 図6-1に、標準偏差が共通した場合の効果量を理解するための模式図を示す
https://gyazo.com/cc51dec9c8f45036345fd612daa7b0b7
2つの正規分布は、どちらも標準偏差が共通して$ 1.0であり、$ \delta = 0.2, 0.5, 0.8, 1.0の場合を図示した
Cohen, 1969によって、$ 0.2は「小さな」効果量、$ 0.5は「中くらい」の効果量、$ 0.8は「大きい」効果量の目安とされている 左上<右上<左下<右下の効果量の増加にともなって、2つの群が離れていく様子が示されている
6.1.2. 標準偏差が異なる場合
2群の標準偏差が異なるモデル(DEF)では、効果量は、平均値の差を一方の群の標準偏差で割った
$ \delta_g = \frac{\mu_1 - \mu_2}{\sigma_g}, \quad (g = 1,2) \qquad (6.2)
で定義される
これは第1群から見た第2群の隔たりと、第2群から見た第1群の隔たりが、互いに異なる可能性があるということを示している
効果量の定義式の分母に、一方の群の標準偏差を利用するとはどういうことか
https://gyazo.com/34aec3ee586c1b6a9e29f2837209a131
ある臨床検査の測定値に関して、健常者は平均$ 0、標準偏差$ 1.0の正規分布に従い、患者は平均$ -1、標準偏差$ 0.4の正規分布に従っているとする
(6.2)式のように健常群の標準偏差$ 1.0を分母に置くと、効果量は$ 1.0 = \frac{(0.0-(-1.0))}{1.0}
健常者集団から見た患者の平均的な位置までは、健常者自らの平均的な散らばりくらいの隔たりであるということ
患者群の標準偏差$ 0.4を分母に置くと、効果量は $ 2.5 = \frac{(0.0-(-1.0))}{0.4}
患者集団から見た平均的な健常者は、患者自らの平均的な散らばりの$ 2.5倍の隔たりの位置にいるということ
6.1.3. 事後分布
効果量の事後分布は、EQU, DEFそれぞれの場合で以下の生成量によって近似できる
$ \delta^{(t)} = \frac{\mu_1^{(t)} - \mu_2^{(t)}}{\sigma^{(t)}} \qquad (6.3)
$ \delta_g^{(t)} = \frac{\mu_1^{(t)} - \mu_2^{(t)}}{\sigma_g^{(t)}}, \quad (g = 1, 2) \qquad (6.4)
近似された事後分布を要約して、点推定値、post.sd, %点、確信区間、片側上限、片側下限の点を評価する(RQ.5)
https://gyazo.com/0baafd2c0325293021d993c7abda3576
EQUの推定値$ \hat \delta は$ 0.745(0.330)[0.101, 1.391]
点推定値は偏差値換算で$ 7.45上昇している
また、効果量は$ 95\%の確信で高々$ 1.288未満であるといえるし、$ 95\%の確信で少なくとも$ 0.202より大きいといえる(RQ.5への回答)
6.1.4. 基準点より大きい効果量
基準点を定めることによって、効果料が基準点より大きい(小さい)確率を求めることができる
$ 10倍した効果料は偏差値換算での平均値差になるのであるから効果量の基準点は、実質科学的な知見が乏しい場合も設定が容易
たとえば、効果量$ 0.2は「2つの群の平均値の差は、偏差値換算で$ 2.0である」と解釈される
EQUにおいて「研究仮説$ U_{\delta > c}: 効果量は$ cより大きい」が正しい確率は、生成量
$ u_{\delta>c}^{(t)} = \begin{cases} 1 & \delta^{(t)} > c \\ 0 & それ以外の場合 \end{cases} \qquad (6.5)
のEAPで評価する(RQ.6)
DEFの場合は$ \delta^{(t)}を$ \delta_g^{(t)}に置き換える
表6-1によれば、EQUでは、効果量が$ 0.2よりおきい確率は$ 95\%である
DEFでは効果量が$ 0.2より大きい確率は$ \delta_1で$ 93\%、$ \delta_2で$ 94\%である(RQ.6への回答)
6.2. 非重複度
RQ.7 非重複度の点推定・区間推定
e.g. 聴音条件の平均値は、安静条件では何%点なのだろうか。その%点を非重複度と呼ぶとき、非重複度はどの区間にあるだろうか
RQ.8 非重複度が基準点$ cより大きい確率
e.g. 聴音条件の平均値が、安静条件の第3四分位(75%点)以上である確率はどの程度だろうか
6.2.1. 標準偏差が共通した場合
第1群の平均値$ \mu_1は、第2群では何%点に相当するか
$ U_3 = F(\mu_1|\mu_2, \sigma) \qquad (6.6)
は平均値の差を解釈するときに有用
ここで$ F(\quad)は正規分布の分布関数
この指標は$ 0.5のときに第1群と第2群が完全に重複していることを意味する
$ \mu_1 > \mu_2なので$ 0.5から離れ、$ 1.0に近づくほど重複していないと解釈する
たとえば、この値が$ 0.9なら、第1群の平均値は、第2群では$ 90\%点(上から1割、あるいは平均値より40%上)ということであり、2つの群の違いを確率で表現している
(6.6)式は第2群から見た$ \mu_1の位置なのであるが、逆に第1群から見た$ \mu_2の位置は、$ \mu_1 > \mu_2を考慮して以下のように定義する
$ U_3 = 1 - F(\mu_2|\mu_1, \sigma) \qquad (6.7)
標準偏差が共通している場合には
$ F(\mu_1|\mu_2, \sigma) = 1 - F(\mu_2|\mu_1, \sigma) \qquad (6.8)
であるから、どちらか一方を計算すればすむ
先の例では、第2群の平均値は第1群の平均値の$ 10\%点(下から1割、あるいは平均値から40%下)である
非重複度は$ 1.0から引いたり、$ 0.5を引いたりして、様々な解釈に利用する
図6-3に標準偏差が共通した場合の模式図を示す
https://gyazo.com/139df8056ecb2e40613692ce4d35a09f
2つの群が完全に一致すると$ U_3 = 0.5となる(左上図)
左上図、右上図、左下伊豆を順番に観察すると、2つの群の重複が少なくなると$ U_3がそれに伴って大きくなっている
左下図と右下図には(6.8)式が例示されている
6.2.2. 標準偏差が異なる場合
標準偏差が異なる場合には、一般的に(6.8)式は成り立たず
$ F(\mu_1|\mu_2, \sigma_2) \neq 1 - F(\mu_2|\mu_1, \sigma_1) \qquad (6.9)
であるから、第2群絡みた$ \mu_1の位置である非重複度
$ U_{31} = F(\mu_1|\mu_2, \sigma_2) \qquad (6.10)
$ U_{32} = 1 - F(\mu_2|\mu_1, \sigma_1) \qquad (6.11)
は別の情報を持っている
図6-4は標準偏差が異なる場合の非重複度の模式図を示す
https://gyazo.com/2eea04265dc52a033587d06f2c0d9ead
左図と右図は同じ2つの分布を示しているが両者は異なった情報を示している
第1群の平均は第2群の平均の$ 45\%(=0.95-0.50)上方にある(左図)
第2群の平均は第1群の平均の$ 34\%(=0.84-0.50)下方にある(右図)
6.2.3. 事後分布
非重複度の事後分布は、たとえば(6.6)式ならば、生成量
$ U_3^{(t)} = F(\mu_1^{(t)}| \mu_2^{(t)}, \sigma^{(t)}) \qquad (6.12)
によって近似できる
(6.7)、(6.10)、(6.11)式もそれに応じた生成量で近似できる
近似された事後分布を要約して、点推定値、post.sd、%点、確信区間、片側上限、片側下限の点を評価する(RQ.7)
https://gyazo.com/fc61871bb224a1bf0e17162aec1f1aea
非重複度の事後分布の推定結果を示した表6-2によれば、「知覚時間」の実験の非重複度は$ 0.760(0.098)[0.540, 0.918] である(EQU)
6.2.4. 基準確率より大きい非重複度
非重複度が基準確率より大きい確率を求めることができる
非重複度の基準確率は、実質科学的な知見が乏しい場合にも設定が容易
たとえば、「第1群の平均値は、第2群の第3四分位(75%点)より上に存在する」という命題の確からしさは、$ p(U_3 > 0.75)で評価できる
「研究仮説$ U_{U_3>c}: 非重複度は$ cより大きい」
が正しい確率は生成量
$ u_{U_3>c}^{(t)} = \begin{cases} 1 & U_3^{(t)} > c \\ 0 & それ以外の場合 \end{cases} \qquad (6.13)
のEAPで評価する(RQ.8)
$ U_{U_{31} >c}や$ U_{U_{32} >c}に関しても同様に評価できる
聴音条件の平均値が対照群の第3四分位(75%点)以上である確率は、EQUで$ 59\%であり、DEFでは$ 60\%である(表6-2)
6.3. 優越率
RQ.9 優越率の点推定・区間推定
e.g. 聴音条件の測定値が安静条件の測定値を上回る確率はどの程度だろう。その確率を優越率と呼ぶとき、優越率はどの区間にあるだろうか。
RQ.10 優越率が基準確率$ cより大きい確率
e.g. 聴音条件の測定値が安静条件の測定値を上回る確率が$ 75\%より大きい確率はどれほどだろう
6.3.1. 標準偏差が共通した場合
第1群の測定値が、第2群の測定値を上回る確率
2つの群の違いを表現するのは別の方法
標準偏差が共通する独立した2つの測定値の差は、以下に従う
$ x_1^* - x_2^* \sim N(\mu_1 - \mu_2 , \sqrt{2}\sigma) \qquad (6.14)
このことを利用すると優越率は、以下のように導かれる。
$ \begin{aligned} \pi_d & = p(x_1^* - x_2^* > 0) \\ & \small{[不等式の両辺から平均を引き、両辺を標準偏差で割り、標準化し]} \\ & = p\left(\frac{(x_1^* - x_2^*) - (\mu_1 - \mu_2)}{\sqrt{2}\sigma} > \frac{0 - (\mu_1 - \mu_2)}{\sqrt{2}\sigma}\right) \\ & \small{[不等式の左辺は標準得点zで置き代え、右辺に効果量を代入し]} \\ & = p\left(z > \frac{-\delta}{\sqrt{2}}\right) = p\left(z < \frac{\delta}{\sqrt{2}}\right) = F\left(\frac{\delta}{\sqrt{2}}|0, 1\right) \qquad (6.15) \end{aligned}
6.3.2. 標準偏差が異なる場合
標準偏差が異なる独立した2つの測定値の差は、以下に従う
$ x_1^* - x_2^* \sim N\left(\mu_1 -\mu_2, \sqrt{\sigma_1^2 + \sigma_2^2}\right) \qquad (6.16)
このことを利用すると優越率は、以下のように導かれる(6.15式に相当)
$ \begin{aligned} \pi_d & = p\left(x_1^* - x_2^* >0\right) \\ & \small{[不等式の両辺を標準化し]} \\ & = p\left(\frac{(x_1^* - x_2^*) - (\mu_1-\mu_2)}{\sqrt{\sigma_1^2 + \sigma_2^2}} > \frac{0-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2 + \sigma_2^2}}\right) \\ & = p\left(z < \frac{\mu_1-\mu_2}{\sqrt{\sigma_1^2 + \sigma_2^2}}\right) \qquad (6.17) \end{aligned}
6.3.3. 事後分布
優越率を評価する方法は2種類ある
一つは優越率の事後分布を求める方法
EQUでは以下の生成量によって近似できる($ F(\quad)は正規分布の分布関数)
$ \pi_d^{(t)} = F\left(\frac{\delta^{(t)}}{\sqrt{2}}\middle|\mu=0, \sigma=1\right) \qquad (6.18)
DEFでは以下の生成量によって近似できる
$ \pi_d^{(t)} = F\left(\frac{\mu_1^{(t)}-\mu_2^{(t)}}{\sqrt{\sigma_1^{2(t)} + \sigma_2^{2(t)}}}\middle|\mu=0, \sigma =1\right) \qquad (6.19)
近似された事後分布を要約して、点推定値、post.sd、%点、確信区間(この区間に入る確率は、確率の確率という意味で、メタ確率)、片側上限、片側下限の点を評価する(RQ.9)
6.3.4. 直接比較する方法
優越率を評価するもう一つの方法は、事後予測分布のMCMC標本をそのまま使用する方法
「研究仮説$ U_{x_1^* - x_2^* > 0}: 第1群の測定値が第2群の測定値を上回る」が成立する確率は、以下の生成量のEAPで評価する
$ u_{x_1^* - x_2^* > 0}^{(t)} = \begin{cases} 1 & x_1^{*(t)} - x_2^{*(t)} > 0 \\ 0 & それ以外の場合 \end{cases} \qquad (6.20)
ただしこの方法は点推定値しか求まらない
https://gyazo.com/498b8e3e7c49f42b6d3f6cbe5e12470a
表6-3によれば、「知覚時間」の実験の優越率は$ 0.696(0.080)[0.528, 0.837] である(EQU)
直接比較する方法では$ 0.695であった(EQU)
6.3.5. 基準確率より大きい優越率
優越率が基準確率を上回る確率を求めることができる
たとえば「第1群の測定値が、第2群の測定値より大きい確率は$ 75\%より大きい」という命題の確からしさは、$ p(\pi_d > 0.75)で評価できる
「研究仮説$ U_{\pi_d>c}: 優越率は$ cより大きい」が正しい確率$ p(p(x_1^* > x_2^*) > c)は以下の生成量のEAPで評価する(RQ.10)
$ u_{\pi_d>c}^{(t)} = \begin{cases} 1 & \pi_d^{(t)} > c \\ 0 & それ以外の場合 \end{cases} \qquad (6.21)
「知覚時間」の実験の優越率が$ 75\%以上である確率はEQUで$ 26\%であり、DEFで$ 23\%である(表6-3)
6.4. 閾上率
RQ.11 閾上率の点推定・両側区間推定・片側区間推定の下限・上限
e.g. 聴音条件の測定値が安静条件の測定値を1秒より上回る確率はどの程度だろう。その確率を閾上率と呼ぶとき、閾上率はどの区間にあるだろうか
RQ.12 閾上率が基準確率$ c'より大きい確率
e.g. 聴音条件の測定値が安静条件の測定値を1秒より上回る確率が$ 75\%より大きい確率はどれ程だろう
6.4.1. 標準偏差が共通した場合
第1群と第2群の測定値の差が、基準点$ cより大きくなる確率を調べる
閾上率は(6.14)四季を利用し、以下となる
$ \pi_c = p(x_1^* - x_2^* >c) = p\left(\frac{(x_1^* - x_2^*) - (\mu_1 - \mu_2)}{\sqrt{2}\sigma} > \frac{c - (\mu_1 - \mu_2)}{\sqrt{2}\sigma}\right) = p\left( z < \frac{\mu_1 - \mu_2 - c}{\sqrt{2}\sigma}\right) \qquad (6.22)
6.4.2. 標準偏差が異なる場合
標準偏差が異なる場合の閾上率は、(6.16)式を利用し、以下となる
$ \pi_c = p(x_1^* - x_2^* > c) = p\left(\frac{(x_1^* - x_2^*) - (\mu_1 - \mu_2)}{\sqrt{\sigma_1^2 + \sigma_2^2}} > \frac{c - (\mu_1 - \mu_2)}{\sqrt{\sigma_1^2 + \sigma_2^2}}\right) = p\left( z < \frac{\mu_1 - \mu_2 - c}{\sqrt{\sigma_1^2 + \sigma_2^2}}\right) \qquad (6.23)
6.4.3. 事後分布
閾上率$ \pi_cを評価する方法は2種類ある
一つは閾上率の事後分布を求める方法
EQUでは以下の生成量によって近似できる
$ \pi_c^{(t)} = F\left(\frac{\mu_1^{(t)} - \mu_2^{(t)} - c}{\sqrt{2}\sigma^{(t)}}\middle|\mu=0, \sigma=1\right) \qquad (6.24)
DEFでは以下の生成量によって近似できる
$ \pi_c^{(t)} = F\left(\frac{\mu_1^{(t)} - \mu_2^{(t)} - c}{\sqrt{\sigma_1^{2(t)} + \sigma_2^{2(t)}}}\middle|\mu = 0, \sigma=1\right) \qquad (6.25)
近似された事後分布を要約して、点推定値、post.sd、%点、確信区間、片側上限、片側下限の点を評価する(RQ.11)
6.4.4. 直接比較する方法
閾上率を評価するもう一つの方法は、事後予測分布のMCMC標本をそのまま使用する方法
「研究仮説$ U_{x_1^* - x_2^* > c}: 第1群と第2群の測定値の差が$ cより大きい」が成立する閾上率は、以下の生成量のEAPでも評価できる
$ u_{x_1^* - x_2^* > c}^{(t)} = \begin{cases} 1 & x_1^{*(t)} - x_2^{*(t)} > c \\ 0 & それ以外の場合 \end{cases} \qquad (6.26)
ただしこの方法では点推定値しか求まらない
https://gyazo.com/0284db8a6b00744650bf087d66e20e39
表6-4によれば、「知覚時間」の閾上率は$ 0.586(0.086)[0.413, 0.747] である(EQU)
直接比較する方法でも$ 0.586であった(EQU)
6.4.5. 基準確率より大きい閾上率
閾上率が基準確率以上である確率を求めることができる
たとえば「第1群の測定値と第2群の測定値の差が1秒より大きい確率が75%より大きい」という研究命題の確率的評価
「研究仮説$ U_{p(x_1^* - x_2^*>c)>c'}: 第1群の測定値と第2軍の測定値の差が$ cより大きい確率は$ c'より大きい」が正しい確率$ p(p(x_1^* - x_2^*>c)>c')は以下の生成量のEAPで評価する(RQ.12)
$ u_{p(x_1^* - x_2^*>c) > c'}^{(t)} = \begin{cases} 1 & \pi_c^{(t)} > c' \\ 0 & それ以外の場合 \end{cases} \qquad (6.27)
「知覚時間」の実験の閾上率($ 1.0)が75%以上である確率は、EQUで$ 2\%であり、DEFで$ 2\%である(表6-4)
6.5. 情報量基準
EQUとDEFの2つのモデルによる分析結果を同時に示すことが煩雑な場合はどうしたらよいのだろうか
2群の標準偏差が類似しているときには、事後標準偏差が小さくなるのに加え、結果の表示が簡潔になるから、EQUの方が適している
2群の標準偏差が大きく異る時は、きめ細かい解釈が可能になるからDEFの方が適している
統計モデルの重要な目的は将来のデータ$ x^*に対する予測力
$ x^*の予測は、モデルからの知見が妥当で、安定している時に高まる
その意味で「$ x^*の予測の程度」は統計モデルの「良さ」の適切な一つの指標となる
table: WAICによるモデルの比較
EQU DEF
WAIC 182.75 184.83
EQUのWAICの値が小さい
したがって、「知覚時間」のデータに対しては、WAICの観点からはEQUが選択される
「標準偏差を共通させてpost.sdを小さくできたメリットの方が、子細な知見が得られるメリットよりも、『$ x^*の予測』の観点では上回る」と推定されたと解釈する
放送授業
帰無仮説は採択しても棄却しても誤りを犯す可能性がある
帰無仮説が真であるのに帰無仮説を棄却してしまう誤り
帰無仮説が偽なのに帰無仮説を採択してしまう誤り
$ \alphaと$ \betaは拮抗する性質があって、両方を同時に小さくすることは難しい
帰無仮説が偽であるときに、正しく帰無仮説を棄却する確率
table: 帰無仮説の2つの誤り
本当の状態 正しい判断 誤った判断
帰無仮説が真 帰無仮説を採択 1 - α 帰無仮説を棄却 α(第1種の誤り)